时政
财经
科技
虚拟货币
其他
登录
#Kimi Linear
关注
sitin
1天前
月之暗面把 Kimi Linear 开源了! 这东西是专门用来处理超长文本的。 简单说几个数据: KV 缓存降了 75%,处理百万字的文本时,解码速度能快 6 倍多。 技术上用了个 3:1 的混合设计, 就是 3 个线性注意力层配 1 个全注意力层。 核心模块叫 KDA,能让模型自己判断该记住什么、该忘掉什么。 测试下来,在长文本生成、代码理解、数学推理这些场景, 表现确实比传统的全注意力模型好一些。 特别是做强化学习训练的时候,准确率涨得挺快。 模型有 480 亿参数,但每次跑的时候只激活 30 亿, 所以资源消耗没想象中那么夸张。 如果你要处理特别长的上下文, 这个架构应该能帮上忙。 已经在 HuggingFace 上了,感兴趣可以看看。
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 19 条信息
#Kimi Linear
#开源
#超长文本处理
#线性注意力
#月之暗面
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞